本文介绍了学习迭代查询细化的元策略的设计代理的首先成功步骤。我们的方法使用机器读取来指导从聚合搜索结果中选择细化项。然后,使用简单但有效的搜索操作员能够赋予代理,以对查询和搜索结果发挥细粒度和透明控制。我们开发一种新颖的方式来发电综合搜索会话,它通过(自我)监督学习来利用基于变压器的语言模型的力量。我们还提出了一种强化学习代理,具有动态约束的动作,从划痕中了解互动搜索策略。我们使用传统的基于术语的BM25排名函数获得与最近神经方法相当的检索和回答质量性能。我们对搜索政策进行了深入的分析。
translated by 谷歌翻译
本文提出了一个简单的食谱,用于训练最先进的多语言语法误差校正(GEC)模型。我们首先提出一种语言不足的方法来实现这一目标,以生成大量的合成示例。第二个成分是使用大规模的多语言模型(最多11B参数)。一旦对特定于语言的监督集进行了微调,我们就会以四种语言的GEC基准进行以前的最新结果:英语,捷克语,德语和俄语。在为GEC建立了一套新的基线后,我们通过释放Clang-8数据集使结果可以轻松地重现和访问。它是通过使用我们称为GT5的最佳型号来清洁广泛使用但嘈杂的Lang-8数据集的目标而产生的。 Clang-8极大地简化了由多个微调阶段组成的典型GEC训练管道 - 我们证明,使用现成的语言模型在Clang-8上执行单个微调步骤,可以进一步改善已经是顶级的,为英语执行GT5型号。
translated by 谷歌翻译
我们说明了一种可以利用用于构建先验遵守身体定律的神经网络的方法。我们从简单的单层神经网络(NN)开始,但避免选择激活功能。在某些条件和无限宽度极限下,我们可以应用中央限制定理,NN输出变为高斯。然后,我们可以通过依靠高斯过程(GP)理论来调查和操纵极限网络。据观察,作用于GP的线性操作员再次产生GP。对于定义微分方程并描述物理定律的差分运算符也是如此。如果我们要求GP或等效地遵守物理定律,那么这将产生与GP的协方差函数或内核的方程式,其解决方案等效地限制了模型以遵守物理定律。然后,中央限制定理建议可以通过选择激活函数来构建NNS来遵守物理定律,从而使它们在无限宽度极限中匹配特定的内核。以这种方式构建的激活函数可以保证NN先验遵守物理学,直到非限制网络宽度的近似误差。讨论了均匀的1D-螺旋方程的简单示例,并将其与天真的内核和激活进行了比较。
translated by 谷歌翻译
尽管在最近的研究中,冷水珊瑚的分布模式(例如paragorgia achorea)受到了越来越多的关注,但对它们的原位活性模式知之甚少。在本文中,我们使用机器学习技术检查了灰木杆菌中的息肉活动,以分析从挪威Stjernsund部署的自主登录机群集获得的高分辨率时间序列数据和照片。本文得出的模型的互动说明是作为补充材料提供的。我们发现,珊瑚息肉扩展程度的最佳预测指标是当前方向,滞后为三个小时。与水流无直接相关的其他变量(例如温度和盐度)提供了更少的有关息肉活动的信息。有趣的是,可以通过对测量位点上方的水柱中的层流进行采样,而不是通过对珊瑚的直接流中的更湍流流进行采样。我们的结果表明,灰木息肉的活性模式受Stjernsund的强潮流状态的控制。看来,木托氏菌对环境当前状态的较短变化没有反应,而是根据潮汐周期本身的大规模模式来调整其行为,以优化营养的吸收。
translated by 谷歌翻译
在科学计算的许多领域越来越流行的人工神经网络(ANN)的大量使用迅速增加了现代高性能计算系统的能源消耗。新型的神经形态范式提供了一种吸引人的替代方案,它直接在硬件中实施了ANN。但是,对于科学计算中用例使用ANN在神经形态硬件上运行ANN的实际好处知之甚少。在这里,我们提出了一种方法,用于测量使用常规硬件的ANN来计算推理任务的时间。此外,我们为这些任务设计了一个体系结构,并根据最先进的模拟内存计算(AIMC)平台估算了相同的指标,这是神经形态计算中的关键范例之一。在二维凝结物质系统中的量子多体物理学中的用例比较两种方法,并在粒子物理学中大型强子对撞机上以40 MHz的速率以40 MHz的速率进行异常检测。我们发现,与传统硬件相比,AIMC最多可以达到一个较短的计算时间,最高三个数量级的能源成本。这表明使用神经形态硬件进行更快,更可持续的科学计算的潜力。
translated by 谷歌翻译
我们提出了Vologan,这是一个对抗域的适应网络,该网络将一个人的高质量3D模型的合成RGB-D图像转换为可以使用消费者深度传感器生成的RGB-D图像。该系统对于为单视3D重建算法生成大量训练数据特别有用,该算法复制了现实世界中的捕获条件,能够模仿相同的高端3D模型数据库的不同传感器类型的样式。该网络使用具有u-net体系结构的CycleGAN框架,以及受SIV-GAN启发的鉴别器。我们使用不同的优化者和学习率计划来训练发电机和鉴别器。我们进一步构建了一个单独考虑图像通道的损失函数,除其他指标外,还评估了结构相似性。我们证明,可以使用自行车来应用合成3D数据的对抗结构域适应,以训练只有少量训练样本的体积视频发电机模型。
translated by 谷歌翻译
本文提出了一种使用对象检测网络在汽车雷达数据上学习对象的笛卡尔速度的方法。提出的方法是在为速度生成自己的训练信号方面进行的。标签仅用于单帧,定向边界框(OBB)。不需要昂贵的笛卡尔速度或连续序列的标签。一般的想法是在不使用单帧OBB标签的情况下预先培训对象检测网络,然后利用网络的OBB预测未标记的数据进行速度训练。详细说明,使用预测的速度以及未标记框架的更新OBB之间的距离和标记框架的OBB预测之间的距离,将网络对未标记帧的OBB预测更新为标记帧的时间戳,用于生成一个自我的预测。监督速度的训练信号。检测网络体系结构由一个模块扩展,以说明多次扫描的时间关系和一个模块,以明确表示雷达的径向速度测量值。仅首次训练的两步方法使用OBB检测,然后使用训练OBB检测和速度。此外,由雷达径向速度测量产生的伪标记的预训练引导Bootstraps本文的自我监督方法。公开可用的Nuscenes数据集进行的实验表明,所提出的方法几乎达到了完全监督培训的速度估计性能,但不需要昂贵的速度标签。此外,我们优于基线方法,该方法仅使用径向速度测量作为标签。
translated by 谷歌翻译
我们考虑在无法访问网络培训数据(例如由于隐私或安全问题)的情况下为神经网络产生解释。最近,已经提出了$ \ Mathcal {i} $ - 网络是一种无样品后全球模型可解释性的方法,不需要访问培训数据。他们将解释作为机器学习任务,将网络表示(参数)映射到可解释功能的表示。在本文中,我们将$ \ Mathcal {i} $ - 网络框架扩展到标准和软决策树作为替代模型的情况。我们提出了相应的$ \ Mathcal {i} $ - 净输出层的合适决策树表示和设计。此外,我们通过在生成$ \ Mathcal {i} $ - NET的培训数据时考虑更现实的分布来制作适用于现实世界任务的NETS $ \ MATHCAL {I} $ - NETS。我们对传统的全球,事后解释性方法进行经验评估我们的方法,并表明当无法访问培训数据时,它可以取得优势。
translated by 谷歌翻译
随着现实应用程序中AI系统的兴起,需要可靠和值得信赖的AI。一个基本方面是可解释的AI系统。但是,关于应如何评估可解释的AI系统的商定标准。受图灵测试的启发,我们引入了一个以人为本的评估框架,领先的领域专家接受或拒绝AI系统和另一个领域专家的解决方案。通过比较提供的解决方案的接受率,我们可以评估AI系统与域专家相比的性能,以及AI系统的解释(如果提供)是否可以理解。该设置与图灵测试相当 - 可以作为各种以人为中心的AI系统评估的框架。我们通过提出两个实例来证明这一点:(1)评估系统的分类准确性,可以选择合并标签不确定性; (2)评估以人为中心确定提供的解释的有用性。
translated by 谷歌翻译
本文介绍了新型混合体系结构,它们结合了基于网格的处理,以改善基于雷达对象检测网络的检测性能和方向估计。纯粹基于网格的检测模型在输入点云的鸟眼视图(BEV)投影上运行。这些方法通过离散的网格分辨率损失了详细信息的损失。这特别适用于雷达对象检测,其中相对粗糙的网格分辨率通常用于解释雷达点云的稀疏性。相反,基于点的模型不会受到此问题的影响,因为它们在没有离散化的情况下处理点云。但是,它们通常表现出比基于网格的方法更差的检测性能。我们表明,基于点的模型可以在网格渲染之前提取邻域功能,利用点的确切相对位置。这对于随后的基于网格的卷积检测主链具有重大好处。在公共Nuscenes数据集的实验中,我们的混合体系结构在检测性能方面取得了改进(汽车类的地图比次要的雷达范围提交比仅限雷达提交的地图高19.7%)和方向估计值(11.5%的相对方向改善)比以前文献的网络相比。
translated by 谷歌翻译